一 . 概述

集成方法是将多个模型组合起来获得更好的模型的一种方法。一般分为 bagging 和 boosting。

二 . 所属分类

集成方法属于 监督学习。

三 . bagging

装袋算法, 对多个模型的结果投票,平均等方式获得结果。

代表算法:

1 . 随机森林 (Random Forests)

随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。

四 . boosting。

提升方法

多个弱分类器组合成一个强分类器的算法,通常给不同的弱分类器不同的权重。数据会被重新加权。

代表算法:

1 . AdaBoost

自适应增强

AdaBoost方法的自适应在于:前一个分类器分错的样本会被用来训练下一个分类器。

其中权重计算公式

例子

1
2
3
4
5
6
7
from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier

model = AdaBoostClassifier(base_estimator = DecisionTreeClassifier(max_depth=2), n_estimators = 4) # base_estimator 选择的弱模型,n_estimators 模型的数量

model.fit(x_train, y_train)
model.predict(x_test)